Feature Hashing について

Words near each other

・ feather papilla
・ feather pulp
・ feather tract
・ featherbedding
・ Feats of Arms
・ feature
・ feature abstraction
・ feature detection
・ feature detector theory
・ feature film
・ Feature Hashing
・ featureless
・ FEATUREWORLD
・ Featuring
・ FEB
・ Feb
・ Feb.
・ FEBC
・ Febri
・ febrifuge

Dictionary Lists

mini英和辞書

翻訳と辞書　辞書検索 [ 開発暫定版 ]

スポンサードリンク

Feature Hashing ：ウィキペディア日本語版

Feature Hashing
機械学習において、Feature Hashing(フィーチャーハッシング)は高速かつ省メモリなをベクトルに変換する手法であり、任意の特徴をベクトルあるいは行列のインデックスに変換する。kernel trick(カーネルトリック)に似せてHashing Trick(ハッシュトリック)とも呼ばれる〔。連想配列を走査するのではなく、ハッシュ関数を特徴量に適用し、その値をインデックスとして直接使用する。
==使用例==
典型的な文書分類のタスクにおいて、機械学習アルゴリズムには(学習と分類の両方において)自由な形式のテキストが入力される。このテキストから(BOW)表現が作られる。つまり、トークンが抽出・カウントされ、訓練データ中のそれぞれのトークンが、訓練データ・テストデータ両方におけるそれぞれの文書の(独立変数)として定義される。
ところが、ほとんどの場合機械学習アルゴリズムは数値型のベクトルを扱うように定義されている。それゆえ文書集合に対するBag of wordsはと見なされる。ここでそれぞれの行は文書を表し、列は特徴量(単語)を表している。つまり、行列の成分は文書の番目の単語の頻度(または重み)を表す(行列の行と列の役割を逆にする見方もあるが、この違いは重要ではない)。
このような行列は一般的に非常にスパースである。
訓練あるいはその前段階にいて、訓練データの単語集合に対して''辞書''表現を作り、単語をインデックスに射影するという方法がよく使われる。しばしばハッシュテーブルやトライ木を使って辞書が作られる。例えば、次のような3つの文書
* ''John likes to watch movies. ''
* ''Mary likes movies too.''
* ''John also likes football.''
は辞書を使って次のように変換される。

そして次のようなDocument-term行列ができる。
:

\begin\textrm & \textrm & \textrm & \textrm & \textrm & \textrm & \textrm & \textrm & \textrm \\1 & 1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 \\0 & 1 & 0 & 0 & 1 & 1 & 1 & 0 & 0 \\1 & 1 & 0 & 0 & 0 & 0 & 0 & 1 & 1\end

(文書の分類やクラスタリングでよくされるように、時制は無視している)
このプロセスでの問題なのが辞書を保存するために多くのスペースが必要で、訓練データのサイズが大きくなるにつれてその必要スペースが増加することである()。
そのうえ、単語集合の大きさが一定数で固定されているときには、その単語集合に含まれない新しい単語や綴りの正しくない単語を使うことで、学習した分類フィルターをすり抜けることができてしまう。これはのでFeature Hashingが使われる理由である。
もちろんHashing Trickの利用は文書分類やその他文書レベルの類似タスクに限られるわけではなく、多くの(あるいは上限が存在しない)数の特徴量を持つあらゆる問題に適用できる。

抄文引用元・出典: フリー百科事典『ウィキペディア（Wikipedia）』
■ウィキペディアで「Feature Hashing」の詳細全文を読む

スポンサードリンク

翻訳と辞書 : 翻訳のためのインターネットリソース